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요 약 


연 속 음 성 인식 시 스 템 의 실 용 화 룰 위해서 가장 중요한 것은 높은 인식 성 능 을 가 지 면 서 동시에 실 시 간 으 로 
인 식 되 어야 한다. 이를 위하여 본 연 구 에서는 먼저 연 속 음 성 인 식 의 인 식 를 향 상 을 위하여 효과적인 음 향 모델 
을 구 성 하기 위하여 20 ㅁ 1-6858( 까 00600 0601910 ㅁ 1766-08660 5400655176 5[0[6 501118178) 알 고 리 즘 을 도입 
하여 24-6 을 구 성 하고, 언 어 모 델 로서 반 복 학 습 을 이 용 하 여 인 식 률 향 상 을 제 고 한 다. 그리고, 기 존 의 연구 
에서 유 효 함 이 입 중 된 프레임 단위 적 웅 프 루 닝 알 고 리 즘 울 연 속 음 성에 적 용 하여 인식 속 도 를 개 선 하고자 
한다. 제 안 된 방 법 의 유 효 성 을 확 인 하 기 위하여, 남성 4 인 이 항공편 예약 관련 음 성 에 대하여 인식 실 험 을 
수 행 하였다. 그 결과 연 속 음 성 인 식 률 90.9%, 단 어 인 식 률 90.7% 의 높은 인 식 성 능 을 얻 었 으며, 적응 프 루 닝 
알 고 리 즘 을 적용한 경우 인 식 성 농 의 저 하 없이 약 1.2 초 ( 전 체 의 15%) 의 인 식 시 간 을 줄일 수 있어 제 안 된 방법 
의 유 효 성 을 확인할 수 있었다. 
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1. 서 론 


음 성 은 인 간 이 사 용 하 는 가장 기본적인 의 사 소통 


이 논 문 은 1998 년 도 한 국 학 술 진 흥 재 단 대 학 부 설 연 구 소 과 
제 ( 과 제 번호 98-005-8 ㅁ 00017) 연 구 비 에 의해 연 구 되었음 
` 정회원, 대 구 과 학 대 학 정 보 전 자 통 신 계열 전 임 강사 

" 대 구 과 학 대 학 정 보 전 자 통 신 계열 전 임 강사 
"” 대 구 과 학 대 학 정 보 전 자 통 신 계열 조교수 
1 정회원, 영 남 대 학교 전 자 정 보 공학부 조교수 

” 영 남 대 학교 전 자 정 보 공학부 교수 


을 위한 수 단 이며, 편 리 함 과 경 제 성 의 측 면 에서 다른 
방 법 에 비해 우수한 특 성 을 가진다. 최근 컴퓨터 하 
드 웨어 기 술 의 급속한 진 보 와 음 성 처리 기 술 의 발전 
으로 인하여 음 성 인 식 의 실 용 화 가 실질적인 문 제 로 
서 관 심 이 중 대 되고 있다, 이러한 관 심 이 증 대 되 면 
서 , 음 성 인 식 에 관한 연 구 는 실 용 화 에 초 점 이 모 아 지 
면서 최근 몇 년 간 의 눈부시게 발 전 하여 일부 태스크 
에서 상업용 시 스 템 이 구 현 되고 있는 실 정 이 다 [1.21. 
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일 반 적 으로 음 성 인식 시 스 템 의 실 용 화 롤 위해서 
가장 중요한 것은 높은 인식 성 능 올 가 지 면 서 동시에 
실 시 간 으로 인 식 되어야 할 필 요 가 있으나, 이 두 요 
구 조 건 은 상 충 되는 사 항 이다. 예 를 들어, 인 식 시 간 을 
줄이기 위해 탐색 공 간 을 대 량 으로 프 루 닝 하면서 간 
단 한 음 향 학적 모 델 을 사 용 하면 인식 속 도 를 쉽게 
향 상 시킬 수 는 있지만 이에 따르는 인 식 률 의 저 하 는 
피할 수 없다. 고립 단어 단 위 에 서는 인 식 률 을 향상 
시 키 거나 혹은 그대로 유 지 하면서 인식 속 도 를 높이 
는 것에 대해서는 어느 정도 연구 성 과 가 있지만, 대 
용량 어 휘 를 대 상 으로 하는 연 결 음 성인식 또는 연속 
음 성 인 식 에서는 아 직 까지 많은 연 구 가 필 요 하다. 실 
제로 이용할 수 있는 실용화 시 스 템 을 구 축 하 기 위해 
서는 높은 인 식 성 능 과 빠른 인 식 속 도 의 두 조 건 을 
동시에 만 족 하지 않으면 안 된 다 [3]. 

고 립 단어 인 식 에 있어서는 약 간 의 잡 음 이 있는 환 
경 하 에 서 도 95% 이 상의 인식 성 능 을 가지며, 한정된 
태스크 범 주 내의 연 속 음 성 인 식 에서도 90% 이 상의 
높은 인 식 를 을 가진 시 스 템 이 많이 개 발 되고 있으며, 
인식 태 스 크 를 확 장 하기 위한 여러 가지 연 구 들이 
진 행 되고 있 다 [4-6]. 국 외 에서는 찌 3016 120120108 53 ㅋ 8- 
1601, 중 권 거래 시스템 등과 같이 고립 단 어 를 대상 
으로 하는 수 종 의 시 스 템 이 개 발 되 어 실 용 화 되고 있 
으며, 2 ㅁ ㅠ 9800 10106, 날씨 안내 시스템 등과 같이 
한정된 태 스 크 에 서 의 연 속 음성 인 식 에서도 거의 실 
시 간 으로 동 작 하 는 시 스 템 이 많이 개 발 되 어 실용화 
단 계 에 있 다 [7,81. 또한 자 연 발 화 ( 띠 204731 50660) 인 
식 에 대한 연 구 도 활 발 하게 진행 중에 있다. 국 내 의 
경 우 에 있어서는 최 근 의 음 성 인 식 에 대한 관 심 의 중 
대로 인하여 증권 안내 시스템, 부서 안내 시스템 등 
과 같이 고 립 단 어 를 대 상 으로 하는 인식 시 스 템 이 
개 발 되어 실제 상 용 화 되 고 있지만, 대 어 휘 를 대 상 으 
로 하는 실시간 음 성 인 식 시스템 구 현 을 위한 고속화 
에 대한 연 구 는 아 직 까지 많이 부족한 실 정 이 다 [1.21. 

기 존 의 연 구 에 서 음 성 인식 시 스 템 의 실 용 화 를 위 
해 높은 인식 성 능 뿐만 아니라 빠른 인식 속 도 를 가 
지는 시 스 템 을 구 축 하 기 위하여 연 구 를 진행해 왔다 
[9-13]. 그 연구 결 과 로서 개 발 된 음 성 인식 기 능 올 
가진 주소 인 식 시 스 템 으 로, 한국어 주 소 의 특 징 을 고 
려 하 여 연 결 단어 인 식 을 태 스 크 로 하고 있다. 인식 
서 간 의 경우, 기 존 에 제안한 프레임 단위 적응 프 루 
닝 문 턱 치 알 고 리 즘 을 적 용 하 여 탐색 공 간 이 효과적 


으로 줄 어 들 을 확 인 하 였 다 .[12.13]. 그러나, 주 소 음성 
이 비록 대 용 량 이긴 하지만, 하 나 의 상위 행 정 단 위 를 
인 식 하고 인 식 된 행 정 단 위 의 하위 행 정 단 위 만 을 인 
식 대 상 으로 하기 때문에 고 럽 단 어 인 식과 비슷한 과 
정 을 거치게 된다. 

따라서 본 논 문 에서는 프레임 단위 적 웅 프 루 닝 
문 턱 치 알 고 리 즘 을 연 속 음 성 인 식 에 적 용 하여 그 유 
효 성 을 확 인 하 고자 한다. 먼저 연 속 음 성 의 인 식 률 을 
향 상 시키기 위하여 104- 따 을 도 입 하 였다. 111- 베 66 
은 비슷한 파 라 미 터 를 가지는 800414 의 상 태 와 출력 
확 률 분 포 를 하나로 하여 상 향 (60000-140) 으 로 공유 
하는 방 법 이 고, 이를 생 성 하 기 위하여 모든 음 소 모 델 
에 대 응 하는 상 태 공 유 를 자 동 으로 결 정 하는 555 알 
고 리 즘 을 이 용 하 여 작은 상 태 에 보다 정확한 문 맥 의 
존 모 델 올 생 성 하 였다. 언 어 모 델 로 는 반 복 학 습 을 통 
한 지 -01310 을 도 입 하여 인 식 률 향 상 을 도 모 하였다 
[14]. 이렇게 얻은 시 스 템 에 프레임 단위 적 웅 프 루 닝 
문 턱 치 알 고 리 즘 을 적 용 하여 연 속 음 성 인 식 에 서 의 
높은 인 식 률 과 빠른 인 식 속 도 를 가지는 시스템 개발 
을 연 구 의 대 상 으로 하고자 한다. 

논 문 의 구 성 은 다 음 과 같다. 2 장 에서는 한국어 음 
성 학적 규 칙 에 대하여 설 명 하고, 3 장 에서는 111- 찌 아 
을 구 성 하기 위한 558 알 고 리 즘 과 음 소 결 정 트 리 를 
도 입 한 2207-555 알 고 리 즘 에 대하여 설 명 하고, 4 장 
에서는 프레임 단위 적응 프 루 닝 문 턱 치 에 대하여 
소 개 한 다. 5 장 에서는 전체 시 스 템 의 구 성 과 인 식 실 
험 방법, 6 장 에서는 인 식 실험 결 과 를 기 술 한 다음, 
마 지 막 으로 7 장 에서 본 논 문 의 결 론 을 맺는다. 


2. 한국어 음 성 학 적 규칙 


한 국 어 에 는 다른 언 어 와 는 달리 많은 문 법 과 음운 
규 칙 이 있다. 본 연 구 에 서는 한 국 어 에 적합한 문 맥 의 
존 음 향 모 델 을 작 성 하기 위해 결 정 트 리 기반 565 
알 고 리 즘 의 상 태 분 할 에서 음소 질의어 집 합 의 구성 
에 한국어 음 성 학 적 지 식 [15] 을 이 용 하 였다. 본 연구 
에서 적용한 음 성 학 적 규 칙 을 표 1 에 나 타 내 였 다, 
표 1 에 나타낸 것과 같이 적용한 규 칙 은 크게 모 

자음, 유성음, 비음, 유 음 , 반 모 음 과 묵 음 으로 나 
다. 이 중에서 모 음 은 혀 의 위치, 입 의 크기, 혀 의 
이, 좁 힙 점 위치, 좁 힙 점 간 극 등과 같이 크게 5 부 분 


로 분 류 하였다. 그리고 자 음 은 조 음 자 리 , 조 음 방법 
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표 1. 한국어 옴 성 학 적 규칙 


반 협 (4>※%) 
광 (060) 


등과 같이 ? 부 분 으로 분 류 하고, 조 음 방 법 의 경우 파 
열 음 , 파 찰 음 , 마 찰 음 으로 다시 나누었다. 본 연 구 에 
는 음 성 학 적 규 칙 을 문 맥 의 좌 , 우 를 포 함 하여 총 162 
부 분 으로 분 류 하였으며, 이를 이 용 하 여 음소 질의어 
집 합 을 작 성 하였다. 이렇게 작성한 음소 질의어 집합 
을 결 정 트 리 에 의한 상 태 분 할 에 사 용 하였다. 


3. 4104-461 과 ㅁ 0 ㅁ ㅠ -555 알고리즘 


3.1 14060 1048(09\ 461\0(( 다 \6- 띠 61) 


8898 알 고 리 즘 에 의해 작성한 100[- 띠 하은 여러 개 
의 상 태 를 연 결 한 네 트 워 크 로 표 현 되 며 , 24- 지 의 
각 상 태 는 상 태 번호, 허 용 할 수 있는 문맥 클래스, 
선 행 음 소 와 후 행 음소 리스트, 자 기 천 이 확 률 과 후행 
상 태 로의 천 이 확 률 그리고 출 력 확 률 분포 파라미터 
와 같은 정 보 를 포 함 한 다. 314-86 에 서는 문 맥 정보 
가 주 어 지 면 , 이 문 맥 을 허 용 할 수 있는 상 태 를 선행 
상 태 와 후 행 상태 리 스 트 의 제약 내 에 서 연 결 하 여 이 
문 맥 에 대한 모 델 을 결정할 수 있다. 이 모 델 은 자기 
천 이 와 다음 상 태 로의 천 이 만을 고려한 16-60- ㅁ 8 
모 델 로 간 주 할 수 있으므로 일반적인 260404 과 같이 
286010-\76!04 알 고 리 즘 에 의해 파 라 미 터 를 추 정 할 
수 있다. 


3.2 555 알고리즘 


요 8 으 (60400659176 86 5011008) 알 고 리 즘 [16,17] 
은 모든 문 맥 올 나타내는 1 상 태의 초 기 모 델 로 부터 
문 맥 방 향 과 시 간 방 향 으로 상 태 분할 후 자 동 적 으로 
10[- 지 6[16,17] 의 구 조 를 결 정 하는 알 고 리 즘 이다. 
868 알 고 리 즘 으 로 18[-*6[ 을 작 성 하 는 단 계 를 그 
럼 1 에 나 타 내 었 다. 

전체적으로 간략히 설 명 하면 다 음 과 같다. 우선 
유 사 음 소 단 위 (21.06) 를 기 본 단 위로 모든 모 델 을 연 
결 한 네트워크 구 조 의 초 기 모 델 로 서 각 각 의 모 델 은 
하 나 의 상 태 와 그 상 태 를 시 단 에서 종 단 까 지 결 합 하 
여 전체 학습 데 이 터 로부터 작 성 한 다. 상 태 의 분 할 은 
경 로 분 할 을 동 반 하는 문 맥 방 향 과 경 로 분 할 을 동반 
하지 않는 시 간 방 향이 있는데, 출 력 확 률 의 11(6141000 
에 따라 한 방 향 으 로 만 수 행 된 다. 문 맥 방 향 으로 분할 
할 때는 경 로 분 할 에 동 반 된 각 각 의 경 로 에 할 당 된 
문맥 클 래 스 도 동시에 분 할 된다. 따라서 문맥 클래스 
의 분 할 에 포 함 된 모든 상태 중에서 학습 데 이 터 에 
대한 누적 11(6142000 확 률 이 가장 큰 쪽 의 상 태 를 분 
할 하도록 선 택 된 다. 시 간 방 향 으 로 의 상 태 분 할 에서 
도 누적 1166142000 확 률 이 높은 쪽 상 태 를 분 할 하 도 
록 선 택 된 다 . 이상의 상 태 분 할 을 반 복 하여 10\1- 지 6 
의 구 조 가 결 정 된 다. 
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지이 


그림 1. 555 알 고 리 즘 의 구 성 도 
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3.3 『01-555 알고리즘 


음 소 결 정 트 리 [18] 는 음 소 의 음 향 적 변 동 을 파 악 하 
는 것으로, 미지 음 소 환 경 의 음 향 적 특 성 을 예 측 하는 
방 법 이다. 음 소 결 정 트리는 뿌 리 (7000 를 음 소 환 경 에 
독 립 한 2 진 트 리 로 나타내고 뿌 리 에 서 잎 방 향 으로 
문 맥 클 래 스 의 분 할 을 수 행 한 다 (그림 2). 이 트리는 
뿌 리 에 서 잎 방 향 으로 진 행 함에 따라 음 소 환 경 의 의 
존 도가 강한 단 위 를 나타내는 계 충 적 구 조 를 가지며, 
일 반 적 으로 잎 부 분 에 모 델 을 대 응 시키게 된다. 트리 
의 각 노 드 에서는 경 험 적 으로 음 소 유 사 성 에 기 인 한 
질 의 어 를 할 당 하 여 768 와 00 에 의해 문 맥 클 래 스 를 
두 개로 분 할 한 다. 음 소 환 경과 음 소 군 에 따라서 각 
질 의 어 를 구 성 한 다. 이러한 음 소 환 경 을 트 리 의 뿌리 
노 드 에서 질 의 어 를 찾아 반드시 잎 에 대 웅 시키기 위 
해, 미 지 의 음 소 환 경 에서 음 향 학 적 으 로 가장 유사한 
잎 의 노 드 로 분 류 된 다고 할 수 있다. 이를 위해, 출현 
하지 않는 음 소 환 경 을 음 소 환 경 독 립 모델 둥 으로 대 
치 할 필 요 도 있다. 


쓸 Ｌ68= 유 성음? 
110 


16827? 7806=01 움 ? 


그림 2. 음 소 결 정 트리 


본 연 구 에서는 668 알 고 리 즘 에 한국어 음 성 학 적 
지 식 으로 구성한 음 소 질의어 집 합 을 이용한 음소 결 
정 트 리에 기반한 상 태 분할 방 법 을 도 입 한 2101'-655 
( 반 1006006 106019100 ㅁ 1 ㅠ 66-08560 556) 알 고 리 즘 [19] 
을 이 용 하 였다. 2201'-56588 는 555 알 고 리 즘 의 문맥 
방향 상 태 분 할 에 음소 결 정 트 리 를 결합한 것으로 
8004- 띠 하에서 새로운 상 태 의 모델 파라미터 공 유 와 
학 습 데 이 터 에 출 현 하지 않는 미 지 의 문 맥 에 대한 학 
습 을 수 행 할 수 있도록 구 성 되어 있다. 여기서 음소 
결 정 트리는 2 진 트 리 로 서 각 노 드 는 음 소 질 의 어 로 
구 성 되 어 있다. 각 음 소 모 델 의 공유 파 라 미 터 는 각 
트 리 의 잎 (1633) 노 드 와 연 관 되 고, 문 맥 의존 모 델 은 


음소 질 의 어 에 의해 트 리 의 뿌 리 (7000) 노 드 에 서 잎 
노 드 까지 조 사 하 여 임 의 의 문 맥 에 할 당 된다. 21017'- 
595 의 특 징 은 허 용 할 수 있는 문맥 클 래 스 는 음소 
질 의 어 에 따른 결 정 트 리에 의해 분 할 된 다는 것이다. 
또한, 하 나 의 상 태 가 분 할 될 때, 두 개의 흔 합 수 는 
새로운 상 태 와 관련된 것이 아니고 새로운 상 태 에 
대한 단일 가우스 분 포 는 학습 샘 플 로부터 계 산 된다. 
따라서, 20-555 알 고 리 즘 이 적절한 문맥 클래스 
의 분 할 과 임 의 의 문 맥 을 표현할 수 있기 때문에 보 
다 정확한 1004- 찌 을 작성할 수 있게 된다. 2101'- 
6888 알 고 리 즘 의 주요 내 용 은 다 음 과 같다. 


1) 한국어 음 성 학 적 지 식 에 의한 음소 질의어 집합 
을 작 성 한 다. 
2) 288070-\600 알 고 리 즘 으 로 초기 114-*06【 을 
학 습 한 다 .( 각 상 태 는 단일 가우스 분포) 
3) 555 알 고 리 즘 과 같이 식 (1) 에 의해 최적 분포 
를 가지는 상 태 를 선 택 한 다. 
4) 문 맥 방 향 과 시 간 방 향 으로 분 할 할 상 태 를 선택 
한다. 
ㆍ 각 음소 질 의 어 에 대해 문 맥 방 향 으로 분할 
할 때, 
1) 질 의 어 에 대해 허 용 할 수 있는 문맥 클래 
스 의 분 할 과 두 개의 단일 가우스 분 포 를 
추 정 한 다 .( 각 가우스 분 포 는 765 또는 20 
에 해당) 
1) 새로운 상 태 에 각 문맥 클 래 스 와 각 가우 
스 분 포 를 할 당 한 다. 
ㆍ 각 음소 질 의 어 에 대해 시 간 방 향 으로 분할 
할 때, 
1 ) 83410-\6101 재 추 정 에 의해 두 개의 단 
일 가우스 분 포 를 추 정 한 다. 
1) 새로운 상 태 에 각 가우스 분 포 를 할 당 하 
고 문맥 클 래 스 를 복 사 한다. 

5) 학습 샘 플 의 14<6141000 에 근 거 하여 문 맥 방 향 과 
시 간 방 향 에서 최 적 의 1144- 제 하 을 선 택 한 다 . 
6) 823070-\6101 알 고 리 즘 에 의해 1004-46[8 의 상 

태 를 재 학 습 한 다. 
7) 미리 정의한 상 태 수 에 도 달 할 때 까 지 단계 3 부 
터 반 복 한 다. 


단계 3 에 서 분 할 될 상 태 의 선 택 은 식 (1) 에 의해 
계 산 된다. 
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_ 업 
@,= 찌 스 주 (01) 
여기서, <, 65, 는 상태 』 의 분포 분 산 과 모든 샘 
플 의 분 산 (정규화 계 수 ) 을 나타내고, 2, 는 상태 ; 의 
추 정 에 이용한 음소 샘 플 의 수 를, 는 특징 벡 터 의 
차원 수 를 각각 나타낸다. 


4. 프레임 단위 적 웅 프 루 님 알고리즘 


음 성 인 식 을 수 행 하기 위해서는 출 력 확률 계 산 과 
탐 색 의 2 가 지 계 산 과 정 을 필 요 로 한다. 3000 올 이 
용 한 음 성 인 식 에 서 의 출 력 확 률 계 산 은 임 의 의 한 시 
점 에서 관 측 된 음 성 을 출 력 하 는 주어진 24414 의 상 
태의 확 률 계 산 이 며 , 탐 색 은 주어진 음성 입 력 에 대한 
최상의 상 태 열 을 구하는 문 제 로 볼 수 있다. 이러한 
탐 색 에 소 요 되는 시 간 은 음 향 학적 모 델 의 복 잡 성 에 
의 해 서 는 크게 영 향 을 받지 않으나, 인 식 대 상 의 규모 
에 따른 영 향 은 크다. 즉 , 인 식 에 있어서 모든 가능한 
상 태 열 들을 고려할 경우, 입 력 된 음 성 에 대한 최고 
10<6101000 의 상태 열 (단어, 문 장 ) 을 찾기 위한 탐 색 공 
간 은 지수 함 수 적 으 로 증 가 한 다. 

현 재 까지 대 부 분 의 시 스 템 에 서는 프레임 동 기 형 
의 빔 탐 색 법 을 이 용 하 고 있는데 이 방 법 은 각 후보 
의 11<6147000 를 비 교 하 고 상위 일정 개 수 ( 문 턱 치 이 
하의 것 ) 에 대해서만 후속 정 합 을 고 려 하는 방 법 으 
로 다 음 과 같이 나 타 낸 다 [20]. 


220 (, 5226 770+ 6 (2) 


이 방 법 은 』 프 레 임 에 서 의 최 적 의 경로 (7,7') 에 
대해 문 턱 치 6 이 내 의 상위 몇 개 ( 빔 폭 ) 만 을 후 속 탐 
색 에서 고 려 하 고 나 머 지 는 탐 색 으 로부터 제 외 하 는 
방 법 이다. 정 합 은 입력 프 레 임 과 식 (2) 의 범 위 내의 
노 드 에 대 응 하는 음향 모 델 과 의 정 합 을 의 미 한다. 여 
기 서 각 노 드 의 16141000 를 비 교 하여 상위 일정 개 
수 를 선택한 후, 여 기 서 부 터 전 개 되 어 지는 노 드 들 과 
입력 + 1 프 레 임 과 정 합 한다. 

탐 색 공 간 올 더욱 제 한 하는 방 법 으로써 프 루 닝 기 
법 [21,22] 이 있다. 이 방 법 은 각 프 레 임 에 있어서 최 
대 1(6141000 를 로 하고, 8 =- 4 (는 여유 
분 을 둔 문 턱 치 ) 에 만 족 하 지 않는 후 보 에 대해서는 


그 시점 이 후 의 탐 색 을 프 루 닝 함으로써 탐 색 공 간 올 
감 소 시킨다. 

먼저 (0006- ㅁ 20868 *×1660)1 알 고 리 즘 의 누 적 대 수 
1166101000 확률 2》(7,7) 의 ㅣ 프 레 임 에 대한 최대치 
2? (을 다 음 과 같이 구할 수 있 다 [23]. 


2200 = 신는 거 662 (3) 


이렇게 구 해 진 최대 416141000 에 대해 식 (4) 과 같 
은 조 건 을 만 족 하 는 각 상태 0 의 각 단 어 (또는 21.) 
에 대해서만 탐 색 을 수 행 하고 나 머 지 는 제 외 하 는 기 
법 을 다음 식 으로 나타낼 수 있다. 


기 갱 6622<2..(0-7 (4) 


빔 탐 색 법 에서 가장 중요한 것은 각 후 보 의 
1068141000 의 정 도 이다. 정 도 가 낮은 경우, 정 해 로 얻 
어진 후 보 가 프 루 닝 에 의해 제 외 되 는 오 류 가 있을 
수 있다. 즉 , 어떤 시 점 (처리 프 레 임 ) 에 서 그 노 드 까 
지의 누적 1166141000 가 크지 않을 경우 정 해 가 될 수 
있음에도 불 구 하고 탐 색 에서 제 외 되어 최 적 성 을 보 
장 받지 못하게 되므로, 빔 폭 의 제 한 과 프 루 닝 조 건 을 
엄 격 하게 함으로써 최 적 해 를 잃을 우 려 가 있다. 따라 
서 , 인 식 정 도 에 영 향 을 주지 않기 위해서는 빔 폭 과 
프 루 닝 조 건 을 완 화 시키면서 탐 색 공 간 을 감 소 시키는 
방 법 을 찾을 필 요 가 있다. 


4.2 프레임 단위 적응 프 루 닝 알고리즘 


앞 절 에서 설명한 방 법 이 각 프 레 임 에서 후보 단 … . 


어 들을 이 전 에 제 안 된 방 법 들 에 비해 보다 효 과 적 으 
로 제 한 할 수 있었지만, 여전히 탐 색 할 필 요 가 없는 
공 간 을 탐 색 한다. 따라서 여기서는 인식 과정 중에 
탐색 공 간 을 효 과 적 이고 자 동 으로 줄이기 위하여 프 
레임 단위 적응 프 루 닝 알 고 리 즘 을 제 안 한 다. 

이 알 고 리 즘 은 이웃 프 레 임 사 이 의 최대 11<8141000 
확 률 들 의 상 관 성 이 크 므 로 앞 프 레 임 의 최대 116- 
10000 확 률 로부터 효과적인 프 루 닝 문 턱 치 를 얻을 
수 있다는 점 에 착 안 하 여 , 앞 프 레 임 의 최대 1166- 
101000 확 률 과 후보 11(6141000 확 률 들의 조 합 으로 현 
재 프 레 임 에 서 의 프 루 닝 문 턱 치 를 프레임 단 위 로 갱 
신 하 는 방 법 이다. 

현재 프 레 임 의 프 루 닝 문 턱 치 는 식 (5) 을 이용하 
여 계 산 된다. 
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4= 솜 험 (650-1.90-8.00-1.9) 6) 


여기서, 2.(7-1,.7*) 는 프레임 -1 에 서 최대 
10661 -1000 확 률 이고, 2,,(7-1,9) 는 프레임 7-1 
에서 여러 후 보 들 의 1<6142000 확 률 이고, 그리고 
은 프레임 -1 에 서 후 보 의 수 이 다. 

식 (6) 로 부터 알 수 있는 바와 같이 제 안 된 알 고 리 
즘 은 현 재 의 문 턱 치가 인식 과정 중에 얻 어 질 수 있 
기 때문에, 인식 태 스 크 가 바 뀌 더라도 문 턱 치를 구 하 
기 위하여 여러 번의 사전 실 험 을 필 요 로 하지 않는 
다. 또한, 문 턱 치가 적 웅 적 으 로 얻 어 지 기 때문에 다 
른 환경 하 에 서 도 인식 속 도 를 향 상 시킬 수 있다. 


5. 인식 실험 


한국어 음 성 학 적 지 식 과 결 정 트리 기반 상 태 분 할 
알 고 리 즘 에 의해 작성한 한국어 문 맥 의존 음 향 모델 
의 유 효 성 을 확 인 하기 위해 음소, 단어 및 연 속 음성 
인식 실 험 을 수 행 하였다. 그리고, 기 존 에 연 결 단어 
음 성 에 적 용 했던 적응 프 루 닝 문 턱 치 알 고 리 즘 의 유 
효 성 올 확 인 하기 위해 연 속 음 성 을 대 상 으로 인 식 실 
험 을 수 행 하 였다. 그림 3 에 인 식 시 스 템 의 전체 구성 
도 를 나 타 내 었다. 
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30660 4081515 


『681176 웨어 
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학 습 하 는데 사 용 하였으며, 두 번째 학 습 에 참 가 하지 
않은 3 명 이 첫 번째 발 성 한 1.356 단 어 를 화 자 독립 평 
가 에 각각 사 용 하 였다. 연 속 음성 인 식 실 험 의 경 우 에 
는, 국 어 공 학 센 터 (1Ｌ48) 의 단 어 음 성 과 본 연 구 실 의 
항공편 예 약 관 련 200 문 장 (?41 ㅁ 0200) 연 속 음 성 데이 
터 베 이 스 를 사 용 하였다. 음 향 모 델 의 학 습 을 위해 
452 단 어 를 35 명 이 1 회 발 성 한 15.820 단 어와 200 문 장 
을 8 명 이 1 회 발 성 한 1,600 문 장 을 문 맥 의존 음 향 모델 
을 학 습 하는데 사 용 하였으며, 학 습 에 참 가 하지 않은 
4 명 의 200 문 장 을 화 자 독립 연 속 음 성 인식 평 가 에 사 
용 하 였다. 

모든 음 성 데 이 터 는 16012 의 샘 플 링 과 106165 로 양 
자화 되었으며, 1-0.978 ' 의 전 달 함 수 로 프 리 엠 퍼 
시스 하였으며, 25075 의 해 밍 윈 도 우 를 곱하여 10205 
씩 이 동 하 면 서 분 석 하 였다. 이를 통해 음성 특징 파 
라 미 터는 12 차 1 ㅁ 20- 멜 크 트럼 계 수 와 정 규 화 된 
대수 에 너 지 에 1 차 및 2 차 의 차분 성 분 올 포 함 하 여 
총 39 차 의 특징 파 라 미 터 를 구 하 였다. 표 2 에 음 성 데 
이터 및 분 석 조 건 을 나타낸다. 

또한, 207-5585 알 고 리 즘 에 의한 문 맥 방 향 의 상 
태 분 할 을 위해 162 개 ( 문 맥 의 좌 , 우 ) 의 음소 질의어 
집 합 을 한국어 음 성 학 적 지 식 에 근 거 하 여 작 성 하 였 
다. 초기 214- 띠 하의 구 조 는 48 개 의 유 사 음 소 단 위 를 
병 렬 로 연 결 하여 141 개 의 상 태 를 가 지 도록 구 성 하 였 
다. 모든 2404- 지 은 혼 합 수 4 를 가지며 200 에 서 
1,200 상 태 까 지는 200 상 태 씩 증 가 시 켰 으 며 , 상 태 수 
2000 인 804- 페 도 학 습 하 였다. 
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그림 3. 음 성 인식 시 스 템 의 전체 구 성 도 


음소 및 단어 인 식 실 험 에서는 문 맥 의존 음 향 모 델 
을 작 성 하기 위해 사 용 된 음 성 데 이 터 는 452 단 어 를 
38 명 이 2 회 발 성 한 국 어 공 학 센 터 (<Ｌ4) 의 음성 데이 
터 베 이 스 를 사 용 하였다. 이를 본 연 구 에서는 2 부분 
으로 나누어 학 습 과 평 가 에 사 용 하 였다. 첫 번째 35 
명이 1 회 발 성 한 15,820 단 어 를 문 맥 의 존 음 향 모 델 을 


발 성 형태 
화자 
사 용 단계 
단 어 ( 문 장 ) 수 
발 성 횟수 1 
발 성 환경 


76-607021128515 
\12000\ 
분석 주기 

특징 파라미터 

(39 차) 


11302000108 \1000\(2501560) 
10101660 
0(6(6(12) + 20\6001) 
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+ 스 스 0600(12) + 스 스 20\67(01) 
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음소 및 단 어 인식 알 고 리 즘 은 006-『83568 \166001 
16680 탐색 알 고 리 즘 [24.25] 으 로서 음 소 인 식 의 경우 
한국어 음 소 제 약 올 가지는 000 ㅁ 6- ㅁ 081 문 법 올 , 단어 
인 식 의 경우 \070-2090Ｌ 문 법 을 각 사 용 하 였다. 

연 속 음 성 인식 알 고 리 즘 은 ~\1414- ㅁ 0855 탐색 알고 
리 즘 [24] 으 로서 1- ㅁ 385 탐 색 의 경우, 단어 2-078 ㅁ 
언 어 모 델 을 이 용 하 여 프레임 동 기 형 \166001 6680 
탐 색 을 수 행 한 후 단어 그 래 프 를 출 력 한다. 2-0885 
탐 색 의 경우 1- ㅁ 0855 의 단어 그 래 프 와 보다 정밀한 
단어 3-01+307 을 이 용 하 여 ㅅ * 6430 06000108 탐 색 을 
수 행 한 후 인 식 결 과 를 출 력 한 다. 


6. 인식 실험 결과 


제 안 된 알 고 리 즘 의 유 효 성 을 확 인 하기 위하여 수 
행 된 인 식 실험 결 과 를 나타낸다. 먼저 그림 4 에 화자 
독립 융 소 인식 실 험 결 과 를, 그림 5 에 화 자 독립 단어 
인식 실 험 결 과 를 각각 나 타 내 었 다. 
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그림 4. 화 자 독립 음 소 인식 실 험 결과 
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그림 5. 화 자 독립 단 어 인 식 실 험 결과 


그림 4 의 음 소 인 식 률 의 경우, 모 노 폰 에 대해 18 
3 인 평균 33.5% 를 나타내고 있다. 그리고 11\[- 지 하 
1000006 에 대해서는 상 태 수 200 일 때 평균 50.2%6, 
상 태 수 3,000 일 때 평균 78.6% 를 나타내고 있다. 모 
노 폰 과 상 태 수 3,000 일 때 의 110\[- 떼 아 041011006 을 비 
교 하 면 8044-6[ 을 이용한 경 우 가 평균 45.1% 의 음 
소 인 식 률 향 상 을 보였다. 또한 상 태 수 200 과 상 태 수 
3.000 일 때 의 84-*6[ 을 비 교 하면 평균 28.4% 의 인 
식 률 향 상 을 보이고 있다. 마찬가지로 그림 5 의 단어 
인 식 률 에서도 모 노 폰 의 경우 1. 3 인 평균 92.9%, 
상 태 수 200 일 때 평균 97.3%, 상 태 수 3,000 일 때 평균 
99.1% 의 평균 단 어 인 식 률 을 구 하 였다. 그럼 5 에 서도 
모 노 폰 과 1/[- 찌 6 을 비 교 하면 상 태 수 3,000 일 때 의 
101-6[ 을 이용한 경 우 가 평균 6.2% 의 인 식 률 향상 
을 나타내고 있다. 

그리고 본 연 구 에서는 한 국 어 의 다양한 특 성 을 고 
려 하여 48 개 의 유 사 음 소 단 위 ( ㅁ 21Ｌ178) 를 사 용 하였는 
데 , 만약 48 개 의 유 사 음 소 단 위 로 10[006 을 작성한 
다면, 실제 음 성 인식 시 스 템 에서 110,592( 48") 개 의 
101010006 을 만들어야 하지만 실제로 많은 수 의 
떠 00006 을 작 성 하여 인식 시 스 템 에 사 용 하면 계산 
적 부 하 가 발 생 한 다. 실제 본 연 구 에 서 학 습 에 사용 
된 음성 데 이 터 에 출 현 하는 음 소 단 위 로 생 성 될 수 
있는 떠 01006 의 수 는 2164 개 이지만 2201-585 알고 
리 즘 에 의한 문 맥 방 향 으로 한국어 음 성 학 적 기 식 과 
결 정 트 리 기반 상 태 분 할 을 수 행 한 결과 108,289 개 의 
204- 피 66 떠 001006 을 작성할 수 있었고, 유사한 확률 
을 가지는 상 태 를 공 유 하 여 시 스 템 의 계 산 적 부 하 를 
최 소 화 하였다. 

그림 6 에 상 태 수 의 변 화 에 따른 화 자 독립 연 속 음 
성 인 식 률 을 나타내고, 그림 7 에 인식 문 장 에 포 함 된 
단 어 인 식 률 을 각각 나 타 내 었다. 

그림 6 에 서 상 태 수 1,000 일 때 1141-*46[ 11011006 
의 경우 1- ㅁ 0855 의 인 식 률 은 평균 86.9% 로 서 단일 
2008 에 비해 평균 9.9% 의 인 식 률 을 향 상 을 보이고, 
상 태 수 800 일 때 10\1-*46[ 021011076 의 경우 2-08858 의 
인 식 률 은 평균 90.9% 로 서 단일 100484 에 비해 평균 
4.1% 의 인 식 률 을 향 상 을 보였다. 또한 그럼 7 에 서 
인 식 대상인 연 속 음 성 에 포 함 된 798 단 어 에 대한 인식 
률 은 상 태 수 1,000 일 때 1144- 피 6 0 ㅁ 12010006 의 경우 
1- ㅁ 0855 인 식 률 은 평균 89.9% 로 서 단일 304 에 비 
해 평균 7.6% 의 인 식 를 향 상 을 보이고, 상 태 수 200 일 
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그림 6. 화 자 독립 연 속 음 성 인 식 를 
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그림 7. 연 속 옴 성에 포 함 된 단어 인 식 를 


때 00[- 찜 66 41010006 의 경우 3- ㅁ 0858 의 인 식 를 은 평 
균 92.4% 로 서 단일 230484 에 비해 평균 2.8% 의 향상 
된 인 식 률 올 구 하 였다. 

그리고 상 태 수 의 중 가 에 따라 연 속 음 성 인 식 를 고 
단 어 인 식 률 이 감 소 하는 원 인 으 로는 학 습 에 참가한 
음성 데 이 터 의 부 족 으로 인해 정확한 11\[- 제 하이 생 
성 되지 못한 것으로 생 각 된다. 이는 향후 음 향 모 델 을 
작 성 하는데 많은 양 의 음성 데 이 터 를 사용할 경우 
해결할 수 있을 것으로 기 대 된다. 

이상의 결 과 들 로 부 터 본 연 구 에 서 한 국 어 에 적합 
한 문 맥 의 존 음 향 모 델 을 작 성 하기 위해 적용한 한국 
어 음 성 학 적 지 식 과 결 정 트 리 기 반 상 태 분할 알 고 리 
즘 의 유 효 성 을 확인할 수 있었다. 
다 음 은 인 식 시 간 을 줄이기 위한 프레임 단위 적응 
루 닝 알 고 리 즘 을 연 속 음 성 인 식 에 대하여 적용한 
결 과 를 표 3 에 나타낸다. 앞 의 실 험 결 과 에 서 연 속 음 
성 인 식 률 90.9%, 단 어 인 식 률 90.7% 로 높은 인 식 를 을 
보인 상 태 수가 800 에 대하여 적 웅 프 루 닝 알고리즘 
을 적 용 하였다. 본 연 구 에서는 일 반 적 으로 널리 사용 
되는 고정 프 루 닝 문 턱 치 와 비 교 를 하였다. 고정 프 
루 낭 문 턱 치 가 250 인 경 우 에 인 식 률 의 변 화 없 이 가 


[기 


표 3. 적응 프 루 님 알 고 리 즘 을 적용한 실험 결과 
고정 프 루 닝 문 턱 치 
연 속 음 성 인 식 률 | ： 단 어 인 식 를 인 식 서간 
90.9% - 90.7% - 7.89 초 
적응 프 루 닝 문 턱 치 
연 속 음 성 인 식 를 | 단 어 인 식 를 


인 식 시간 
90.9% 90.7% 6.73 초 


장 좋은 결 과 를 보였다. 

위 표 에서 보는 바와 같이 인 식 률 의 변 화 없이 인 
식 시 간 이 약 1.2 초 줄어들어 유 효 성 울 확인할 수 있 
었다. 또한, 기 존 의 고정 프 루 닝 알 고 리 즘 이 여러 번 
의 사 전 실 험 을 거쳐서 문 턱 치를 결 정 하는데 비해 적 
웅 프 루 닝 알 고 리 즘 은 단어, 연 결 단어, 그리고 연 속 음 
성 등과 같이 다양한 태 스 크 에 도 사 전 실 험 이 필 요 없 
이 바로 적 용 할 수 있어 유 효 함 을 확인할 수 있었다. 


7. 결 론 


본 연 구 에서는 연 속 음 성 인식 시 스 템 의 성 능 향 상 
을 위하여 인 식 률 과 인 식 속 도 라는 두 가지 면 에 서 
연 구 를 수 행 하였다. 먼저 인 식 를 향 상 을 위하여 효과 
적인 음 향 모 델 을 구 성 하 기 위하여 207-5585 알고 
리 즘 을 도 입 하여 1804- 퍼 하 을 구 성 하였고, 언 어 모델 
로서 반 복 학 습 을 이 용 하 여 인 식 실 험 을 수 행 한 결과 
높은 인 식 률 을 얻어 도 입 된 알 고 리 즘 의 유 효 성 을 확 
인 하 였다. 그리고, 기 존 의 연결 단어 인 식 에서 유효 
성 이 입 증 된 프레임 단위 적 웅 프 루 닝 문 턱 치 알 고 리 
즘 을 연 속 음 성 에 적 용 하여 고정 프 루 닝 알 고 리 즘 에 
비하여 인 식 시 간 이 줄어들어, 연 속 음 성 에서도 적응 
프 루 닝 알 고 리 즘 의 유 효 성 을 확 인 하였다. 

2101-685 알 고 리 즘 은 기 존 의 555 알 고 리 즘 에 
한국어 음 성 학 적 지 식 으로 구성한 음 소 질 의 어 집합 
을 이용한 음소 결 정 트 리 에 기반한 상 태 분 할 방 법 으 
로 적절한 문맥 클 래 스 의 분 할 과 임 의 의 문 맥 올 표현 
할 수 있다. 그리고, 프레임 단위 적응 프 루 닝 알 고 리 
즘 은 이웃 프 레 임 사 이 의 최대 확 률 의 상 관 성 이 큰 
점 에 착 안 하여, 앞 프 레 임 의 최대 확 를 로부터 효과적 
으로 프 루 닝 문 턱 치 를 얻는 방 법 으로 현재 프 레 임 에 
서 적응 프 루 닝 문 턱 치는 앞 프 레 임 의 최대 확 률 과 
후보 확 률 의 조 합 으로 결정할 수 있다. 

제 안 된 방 법 의 유 효 성 을 확 인 하기 위하여 항공편 
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예약 관련 연 속 옴 성인식 시 스 템 에 적 용 하여 인 식 실 
험 을 수 행 한 결과, 연 속 음성 인 식 률 이 90.9% 와 단어 
인 식 률 이 90.7% 로 높은 인 식 를 을 얻 었 으며, 적응 프 
루 닝 알 고 리 즘 을 적용한 경우 인 식 률 의 저 하 없 이 고 
정 프 루 닝 알 고 리 즘 에 비해 인 식 시 간 이 약 1.2 초 (전 
체 의 156) 줄어들어 제 안 된 알 고 리 즘 의 유 효 성 을 확 
인 할 수 있었다. 
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